from evalscope import TaskConfig, run_task
task_cfg = TaskConfig(
    model='Qwen2.5-7B-Instruct-int8-tp4-2048-4096',
    api_url='http://127.0.0.1:18804/v1',
    eval_type='service',
    datasets=[
        'ceval',
        'ifeval',
    ],
     dataset_args={
        'ceval': {
            'subset_list': [
                'computer_network',
                'operating_system',
                'computer_architecture',
                'college_programming',
                'college_physics',
            ]
        }
    },
    eval_batch_size=16,
    generation_config={
        'max_tokens': 30000,  # 最大生成token数，建议设置为较大值避免输出截断
        'temperature': 0.6,  # 采样温度 (huggingface 报告推荐值)
        'top_p': 0.95,  # top-p采样 (huggingface 报告推荐值)
        'top_k': 1,  # top-k采样 (huggingface 报告推荐值)
        'n': 1,  # 每个请求产生的回复数量
    },
    timeout=60000,  # 超时时间
    stream=True,  # 是否使用流式输出
    limit=50,  # 设置为100条数据进行测试
)

run_task(task_cfg=task_cfg)
